MoE门控网络最新创新!性能对标Llama 3,源2.0-M32大幅提升模型算力效率
近期,全新发布的大模型“源 2.0-M32”为 MoE 算法结构创新带来了全新思路——创新性地提出和采用了“基于注意力机制的门控网络”技术,构建包含 32 个专家(Expert)的混合专家模型(MoE),大幅提升了模型算力效率。支持以更少的算力消耗,实现更高的模型能力!
根据官方信息显示,源 2.0-M32 模型运行时激活参数为 37 亿,在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与 LLaMA3-700 亿不相上下。同时,源 2.0-M32 大幅提升了模型算力效率,在性能全面对标 LLaMA3-700 亿的同时,显著降低了在模型训练、微调和推理所需的算力开销,算力消耗仅为 LLaMA3-700 亿的 1/19。
源 2.0-M32 相关链接
代码开源:
https://github.com/IEIT-Yuan/Yuan2.0-M32论文地址:
https://arxiv.org/pdf/2405.17976Huggingface模型下载地址:
https://huggingface.co/IEITYuan/Yuan2-M32-hfModelScope模型下载地址:
https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summaryWisemodel模型下载地址:
https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf算法结构创新:Attention Router与LFA
MoE 作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,由多个专家模型组成,每个子模型都是一个局部模型,能够在远少于稠密模型所需的计算资源下进行有效的预训练。
当前流行的 MoE 结构中,门控网络大都采用简单的调度策略,其过程是将 Token 与每个专家的特征向量进行点积,从而找到点积结果最大的几位专家,由多个专家协同参与计算。但这个过程忽略了专家之间的相关性,无疑会降低模型的精度。
浪潮信息提出并采用了一种新型的算法结构——基于注意力机制的门控网络(Attention Router)。有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题。Attention Router 的机制是,为每个专家提供了三个特征向量来构建专家之间的关系,然后将其引入到传统调度策略中,因此,门控网络在选择专家模型时,就会同时考虑绝对点积数值以及专家间的协同性,找到与自身属性更为相似、关联度更高的专家,使得专家之间协同处理数据的水平大为提升。
同时,源 2.0-M32 以源 2.0-2B 为基础模型进行设计,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention)。
LFA 机制通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。
在架构方面,源 2.0-M32 构建了一个 32 X 2B 的 MoE 架构,在推理的过程中,32 个专家每次只激活 2 个,激活参数只有 37 亿,但是 M32 在逻辑推理、代码方面,精度可以对标 Llama 3-70B。可以说是找到了一个在模型能力与算力消耗之间的最优 MoE 架构解!
提升“模算效率”:模更强,算更优
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧